Nella presente trattazione è stata affrontata l’analisi dei risultati delle elezioni politiche italiane del 2018.
Domenica 4 marzo 2018 si sono svolte le elezioni per il rinnovo dei due rami del Parlamento Italiano: la Camera dei Deputati e il Senato. Si è votato per eleggere i 630 deputati e i 315 senatori. La legge elettorale adottata è stata la Legge Rosato, comunemente nota come Rosatellum. La legge è stata applicata per i due rami con la medesima formula elettorale, salvo qualche piccola differenza per quanto riguarda le soglie di sbarramento.
Il Rosatellum è una legge elettorale mista, cioè prevede che una parte dei seggi siano assegnati con un sistema proporzionale e una parte con un sistema maggioritario, come mostrato in figura.
Per applicare questa legge elettorale, il territorio italiano è stato suddiviso in circoscrizioni (corrispondenti a regioni amministrative o, nel caso di regioni particolarmente grandi, parte di esse), a loro volta divise in collegi plurinominali, a loro volta divisi in collegi uninominali. La partizione del territorio per l’elezione della Camera dei Deputati non corrisponde alla partizione per l’elezione del Senato.
In questa trattazione vengono analizzati solo i risultati relativi all’elezione della Camera dei Deputati, in quanto, anche per merito dell’adozione dello stesso sistema di voto per i due rami, non vi sono sostanziali differenze nei risultati. Si noti che l’unica differenza per quanto riguarda le basi elettorali dei due rami è che per la Camera si acquisisce il diritto di voto al compimento dei 18 anni, mentre per il Senato si acquisisce al compimento dei 25 anni, ma, anche per ragioni demografiche, la fascia d’età 18-24 è poco rilevante per l’esito elettorale. Inoltre in questa trattazione sono stati trascurati i voti della Valle d’Aosta che, secondo quanto previsto dal Rosatellum, non è entrata a far parte del computo per i seggi proporzionali e ha eletto un solo deputato e un solo senatore con un sistema puramente maggioritario.
Per quanto riguarda la Camera, il territorio italiano è stato diviso in:
Il Rosatellum prevede la possibilità per le liste di costituire delle coalizioni per l’elezione della componente maggioritaria.
Di seguito sono elencate le principali liste raggruppate per relative coalizioni:
| Coalizione | Lista |
|---|---|
| Coalizione di centrodestra | Forza Italia |
| Lega | |
| Fratelli d’Italia | |
| Noi con l’Italia - UDC | |
| Movimento 5 Stelle | Movimento 5 Stelle |
| Coalizione di centrosinistra | Partito democratico |
| +Europa | |
| Civica popolare | |
| Italia Europa insieme | |
| SVP - PATT (solo in Trentino - Alto Adige) | |
| Liberi e Uguali | Liberi e Uguali |
| lista | coalizione | voti_lista | perc_lista | voti_coalizione | perc_coalizione |
|---|---|---|---|---|---|
| LEGA | 5698687 | 17.4 % | |||
| FI | 4596956 | 14.0 % | |||
| FDI | 1429550 | 4.4 % | |||
| UDC | 427152 | 1.3 % | |||
| CDX | 12152345 | 37.0 % | |||
| M5S | 10732066 | 32.7 % | |||
| M5S | 10732066 | 32.7 % | |||
| PD | 6161896 | 18.8 % | |||
| +E | 841468 | 2.6 % | |||
| IEI | 190601 | 0.6 % | |||
| CP | 178107 | 0.5 % | |||
| SVP | 134651 | 0.4 % | |||
| CSX | 7506723 | 22.9 % | |||
| LEU | 1114799 | 3.4 % | |||
| LEU | 1114799 | 3.4 % | |||
| Altri | 1335772 | 4.1 % |
Nella presente analisi si è cercato di rispondere alle seguenti domande:
Per quanto riguarda i quesiti 2 e 3, diversi commentatori politici hanno fatto notare come vi sia stata una netta spaccatura tra i voti nelle regioni del Nord che hanno visto la Lega come protagonista e nelle regioni del Sud, dominate dal Movimento 5 Stelle, mentre Partito Democratico è riuscito ad emergere solo nelle storiche regioni rosse. Inoltre si è anche fatto notare come nelle città del Nord (in particolare Milano e Torino) vi siano rilevanti differenze tra i centri città, dove ha vinto il Partito Democratico, le periferie, dove ha vinto il Movimento 5 Stelle e le provincie, dove ha vinto la Lega. Particolarmente interessante su questo tema è l’analisi di Filippo Mastroianni su Il Sole 24 Ore.
Per quanto riguarda i punti 4 e 5 si è notato come tra le diverse zone d’Italia vi sono anche forti differenze socio-economiche che possono spiegare le differenze nel voto. In merito a questo aspetto Giuseppe Sollazzo, data scientist e attivista open data londinese, ha affermato nella sua analisi che “prima di tutto, la geografia è molto probabilmente, nel caso Italiano, un proxy per altri parametri (occupazione, PIL locale, benessere generale); e secondo, anche considerando la possibilità che sia un proxy, non è così forte come proxy”.
La tesi che vi siano nette distinzioni socio-economiche tra gli elettori dei diversi partiti è confermata anche dall’indagine statistica effettuata da Tecnè per Tgcom24. Da questa analisi si evince per esempio che:
Questi quesiti sono interessanti innanzitutto perché permettono di indagare su un fenomeno sociale su base nazionale e permettono di capire quali sono i temi e gli ideali politici che più stanno vicini agli italiani. Questo può essere utile per le amministrazioni locali e nazionali per andare in contro in modo più mirato alle esigenze dei cittadini.
In secondo luogo un’analisi di questo tipo può permettere ai partiti politici di capire meglio quali sono stati i punti di forza e i punti deboli della loro comunicazione.
Solitamente per rispondere a domande di questo tipo si effettuano indagini statistiche come quella di Tecnè sopracitata. Queste rispetto all’analisi del voto hanno il vantaggio di raccogliere informazioni a livello di singolo individuo e non solo a livello di aggregati come i comuni o i collegi uninominali, quindi riescono a essere più precise. Di contro, le indagini politiche presentano diversi problemi e criticità:
Proprio a causa di queste criticità i dati rilevati dalle indagini politiche a volte si rivelano molto lontani dal dato reale. È il caso per esempio dei sondaggi preelettorali.
Nella tabella e nel grafico seguente è riportato il confronto tra il dato previsto come media degli ultimi sondaggi pubblicati il 16 febbraio 2018 prima del silenzio elettorale e il dato realmente registrato alle elezioni. Nella pagina di Wikipedia dedicata ai sondaggi sulle elezioni politiche italiane del 2018 sono disponibili i dati di tutti i sondaggi.
| lista | previsione | reale |
|---|---|---|
| M5S | 28.0 % | 32.7 % |
| PD | 22.8 % | 18.8 % |
| LEGA | 13.4 % | 17.4 % |
| FI | 16.4 % | 14.0 % |
| FDI | 4.6 % | 4.4 % |
| LEU | 5.7 % | 3.4 % |
Oltre alla consueto fenomeno di sovrastima del centrosinistra e sottostima del centrodestra e al più recente fenomeno di sottostima del Movimento 5 Stelle già osservato alle elezioni politiche del 2013, è curioso che, per la prima volta dalla sua discesa in campo, i voti di Silvio Berlusconi sono stati sovrastimati nei sondaggi preelettorali. Questo può essere spiegato dal fatto che da buona parta dell’elettorato Berlusconi sia visto come parte dell’establishment allo stesso modo del Partito Democratico e dalla crescita di popolarità di Matteo Salvini che ha fatto confluire un’importante fetta dei voti di centrodestra nella Lega.
Va precisato che, nonostante le criticità delle indagini politiche, un’analisi dei risultati di voto non può sostituirle proprio perché, nonostante non soffra di distorsione, è limitata all’osservazione di aggregati e non di singoli individui, oltre all’evidente problema che le elezioni politiche avvengono ogni 5 anni, mentre le indagini politiche vengono effettuate costantemente.
Le analisi del voto possono però essere utilizzate come uno strumento aggiuntivo che permetta di migliorare le indagini fornendo una base per ottenere nuovi fattori di stratificazione della popolazione per le future indagini.
Nella presente trattazione sono stati analizzati per l’elezione della Camera dei Deputati i dati relativi a:
I dati dell’affluenza e i risultati dei partiti disaggregati per circoscrizioni, collegi plurinominali e collegi uninominali sono pubblici sul sito del Dipartimento per gli Affari Interni e Territoriali del Governo Italiano.
Gli shapefile utilizzati per disegnare le mappe e i dataset con i dati socioeconomici della popolazione italiana sono pubblici sul sito dell’ISTAT:
I dati in questione però presentano alcuni problemi:
Per far fronte ai problemi 1, 2 e 3, si è attivato Andrea Borruso, presidente di OnData, “Associazione per la promozione della trasparenza e della cultura dei dati attraverso le competenze digitali e il giornalismo investigativo”, il quale ha scaricato i dati dalla piattaforma interattiva del sito del Ministero dell’Interno con uno script in bash e li ha pubblicati in questa directory di GitHub prima ancora che venissero pubblicati i file csv ufficiali. Si è anche preso la briga di preparare una tabella che mette in relazione i codici identificativi dei comuni, delle province e delle regioni utilizzati dal Ministero dell’Interno con i codici identificativi utilizzati dall’ISTAT. Questa tabella può essere utilizzata come Stele di Rosetta per fare il join tra i dataset delle due fonti.
Questi dati però presentano alcuni problemi:
Per il problema 3 ho deciso di utilizzare per l’analisi del voto a livello di circoscrizione i dati scaricati a mano in formato csv dal sito del Ministero dell’Interno.
Una buona parte del lavoro di analisi dei dati è stato svolto tramite la rappresentazione di mappe e diagrammi di dispersione. Gli strumenti statistici utilizzati per l’analisi tecnica sono stati:
L’affluenza su base nazionale si è attestata al 72.94%, in calo rispetto al 75.20% delle elezioni politiche del 2013, risultando la più bassa della storia repubblicana (dal 1948). Nel confronto con le ultime elezioni va però tenuto presente che nel 2013 si è votato anche il lunedì, mentre nel 2018 i seggi sono stati aperti solo la domenica.
Guardando i boxplot seguenti si può notare come vi sia stata un’affluenza alle ore 23:00 complessivamente più bassa rispetto a quella delle precedenti elezioni. Si può notare anche una leggera diminuzione della variabilità, sia in termini di deviazione standard, sia in termini di coefficiente di variazione.
Si ricorda che il coefficiente di variazione di una variabile \(X\) è definito come:
\[ CV(X)=\frac{SD(X)}{E(X)} \]
dove \(SD(X)\) è la deviazione standard di \(X\) e \(E(X)\) è la media di \(X\).
| hour | min | mean | median | max | sd | cv |
|---|---|---|---|---|---|---|
| perc_ore12 | 11.8 % | 19.5 % | 19.9 % | 24.7 % | 2.90 % | 0.149 |
| perc_ore19 | 42.9 % | 58.8 % | 60.9 % | 68.4 % | 6.23 % | 0.106 |
| perc_ore23 | 59.1 % | 73.0 % | 74.7 % | 80.4 % | 5.52 % | 0.076 |
| percprec_ore23 | 59.7 % | 75.1 % | 76.8 % | 84.3 % | 6.16 % | 0.082 |
| hour | min | mean | median | max | sd | cv |
|---|---|---|---|---|---|---|
| perc_ore12 | 1.4 % | 20.2 % | 20.3 % | 46.3 % | 4.51 % | 0.223 |
| perc_ore19 | 14.3 % | 60.0 % | 61.3 % | 86.8 % | 7.68 % | 0.128 |
| perc_ore23 | 17.6 % | 73.6 % | 75.1 % | 98.4 % | 6.89 % | 0.094 |
| percprec_ore23 | 20.7 % | 75.1 % | 76.7 % | 100.0 % | 7.64 % | 0.102 |
Le mappe seguenti mostrano l’affluenza nelle diverse zone d’Italia. Dalla mappa con il dettaglio a livello provinciale appare evidente che l’affluenza nelle regioni del Nord sia stata significativamente più alta rispetto all’affluenza nelle regioni del Sud, con picchi positivi nelle provincie di Veneto, Lombardia, Toscana ed Emilia - Romagna e picchi negativi nelle provincie di Sicilia, Calabria e Sardegna. Emerge inoltre che c’è stato un picco di bassa affluenza nella provincia di Bolzano, in Trentino - Alto Adige
La seconda mappa mostra gli stessi dati con un dettaglio a livello comunale. A causa della maggiore variabilità dei dati dovuta comuni (solitamente molto piccoli) che raggiungono livelli superiori al 90% e altri inferiori al 20% risultano meno evidenti le differenze su scala nazionale poiché la maggior parte dei comuni rimane sulla fascia verde. Nella terza mappa è stato ovviato a questo problema schiacciando tutti i comuni con affluenza superiore all’80% sul giallo e tutti i comuni con affluenza inferiore al 60% sul blu. Va notato che la scelta delle soglie introduce un ampio margine di arbitrarietà nel disegnare la mappa. Invece l’accorpamento dei comuni in zone omogenee più estese (come possono essere le provincie o i collegi uninominali) fornisce un effetto smoothing che neutralizza il problema dei picchi nei piccoli comuni.
I diagrammi a dispersione seguenti rappresentano sull’asse delle ascisse l’affluenza alle elezioni del 2013 e sull’asse delle ordinate l’affluenza alle elezioni del 2018. I colori rappresentano le regioni: punti dello stesso colore rappresentano province o comuni appartenenti alla stessa regione. Da questi grafici emerge che la diminuzione dell’affluenza si è riscontrata soprattutto nelle regioni del Nord (dove l’affluenza è alta), mentre è stata meno accentuata in alcune regioni del Sud (dove l’affluenza è bassa), in particolare in Campania, dove si è registrato un aumento che può essere spiegato dall’aumento dei consensi nei confronti del Movimento 5 Stelle grazie alla popolarità del leader napoletano Luigi Di Maio.
Guardando la parte destra del diagramma a dispersione emerge un punto anomalo corrispondente alla provincia di Bolzano, che ha conosciuto un enorme crollo di affluenza passando dall’82% al 69%. Per spiegare questo fenomeno bisogna indagare sulla situazione sociale e politica dell’Alto Adige. I residenti della provincia autonoma di Bolzano sono per il 62.2% germanofoni e la minoranza italofona costituisce solo il 23.3% della popolazione. Il partito che domina la scena politica altoatesina è il Südtiroler Volkspartei (SVP), partito autonomista moderato, che ha governato ininterrottamente la provincia fin dalla sua istituzione nel 1948 e attualmente governa la maggior parte dei comuni della provincia di Bolzano. Il SVP durante la prima repubblica si è presentato alle elezioni politiche al fianco della Democrazia Cristiana, mentre dagli anni ’90 si è schierato con i partiti di centrosinistra, motivo per cui alle elezioni del 4 marzo 2018 ha fatto parte della coalizione del Partito Democratico. A causa di una diminuzione di fiducia nei confronti del Partito Democratico, che ha colpito tutta l’Italia durante il governo Renzi, e della scelta di candidare al collegio uninominale di Bolzano Maria Elena Boschi, si è diffuso un generale malcontento da parte dell’elettorato sudtirolese. Questo malcontento è stato incanalato dai parti della destra indipendentista sudtirolese, come Die Freiheitlichen (i Libertari), i quali, non riconoscendo una valida alternativa nei candidati della coalizione di centrodestra -che ha presentato al collegio uninominale di Bolzano Michaela Biancofiore-, hanno invitato gli elettori all’astensionismo.
Nelle seguenti tabelle è possibile riordinare i dati per affluenza crescente o decrescente e tramite la barra di ricerca selezionare una regione, una provincia o un comune di interesse.
Nei boxplot seguenti è riportata la distribuzione della popolazione alla data del censimento del 2011 nei diversi collegi. Dai boxplot si può notare che la distribuzione della popolazione nelle circoscrizioni ha un’altissima variabilità. Per rendere il più possibile equilibrato il potere degli elettori residenti nelle diverse zone d’Italia, i collegi sono stati divisi in collegi uninominali il più omogenei possibili in termini di popolazione, che a loro volta sono stati accorpati in collegi plurinominali mantenendo una certa omogeneità. Ogni collegio uninominale ha una popolazione di circa 256000 abitanti.
Questo fa sì che nelle aree con una bassa densità di popolazione (come il Friuli - Venezia Giulia, che conta circa 1.2 milioni di abitanti) i collegi uninominali corrispondo all’accorpamento di diversi comuni, mentre nelle aree con alta densità di popolazione (come Milano, che da sola conta circa 1.4 milioni di abitanti e considerando tutta la città metropolitana ne conta più di 3.2 milioni), i comuni stessi sono stati divisi in più collegi subcomunali.
La forte omogeneità dei collegi uninominali in termini di popolazione li rende ottimali per l’analisi dei risultati, poiché si evitano i problemi visti in merito all’affluenza a livello comunale. Di contro bisogna prestare attenzione a non farsi ingannare dalle mappe che vedono i colori dei partiti che hanno vinto nei collegi provinciali occupare un’area della figura molto più grande rispetto ai colori dei partiti che hanno vinto nei collegi subcomunali delle grandi città. Uno stratagemma per ovviare a questo problema è quello di distorcere le figure in modo da rendere le superfici degli enti proporzionali alla popolosità. Ho deciso di evitare questo approccio perché rende poco riconoscibili le figure.
Nelle seguenti mappe sono riportate le liste e le coalizioni vincitrici a livello di circoscrizioni, di collegi plurinominali e di collegi uninominali. Sono state riportate anche le mappe con il dettaglio della Lombardia, del Piemonte e del Lazio per mettere in evidenza i collegi subcomunali. Da queste mappe risulta evidente che ci sia una netta differenza tra Nord, dove prevalgono i voti della Lega, e Sud, dove prevalgono i voti del Movimento 5 Stelle. Guardando con attenzione la mappa dei collegi uninominali si nota anche una netta differenza tra i voti nei collegi subcomunali dei capoluoghi e i voti nelle province. In particolare nelle città del Nord si nota che in pieno centro ha vinto il Partito Democratico, nelle periferie il Movimento 5 Stelle e in provincia la Lega.
Le mappe con i risultati elettorali mostrate fino adesso hanno un grosso difetto: mostrano il vincitore, ma non di quanto ha vinto. Per avere una visione più completa del comportamento degli elettori è utile analizzare le seguenti mappe. In queste mappe è visualizzata a livello di collegio uninominale l’intensità di voto di ognuno dei 4 principali partiti tramite l’intensità dei colori.
Nel commentare queste mappe bisogna però prestare attenzione alla scala riportata a fianco. Per esempio confrontando la mappa del Movimento 5 Stelle e della Lega appare evidente che la Lega ha preso più voti al Nord, mentre il Movimento 5 Stelle ha preso più voti al Sud, ma si può anche notare che, mentre la Lega al Sud in certi collegi raggiunge percentuali attorno al 2% o 3%, il Movimento 5 Stelle nei collegi del Nord colorati con un bianco sporco ottiene comunque percentuali che si aggirano attorno al 20%, confermandosi un partito molto più trasversale della Lega.
Confrontando le mappe della Lega e di Forza Italia si può notare come, mentre la Lega, che si è rivelata il partito trainante del centrodestra, ha ottenuto voti principalmente al Nord, a Forza Italia sono rimasti quasi unicamente i collegi del Sud Italia, dove la Lega non è riuscita a emergere. Questo conferma il dato rilevato dall’Istituto Cattaneo, secondo cui buona parte degli elettori di centrodestra del Nord, che alle elezioni del 2013 hanno votato Popolo della Libertà (PDL), abbiano deciso di votare Lega.
In tutte e 4 le mappe si nota una chiazza bianca in corrispondenza della provincia di Bolzano. Questo è dovuto al fatto che in Alto Adige il primo partito è stato SVP che nei collegi di Merano e Bressanone ha superato il 60%.
Guardando le mappe delle concentrazioni di voto della Lega e del Partito Democratico si notano in Nord Italia una serie di “buchi”, corrispondenti da ovest a est alle città di Torino, Milano, Bergamo, Brescia, Verona, Padova e Venezia. Un dettaglio simile si nota anche a Roma. Dalle mappe con la concentrazione relativa di voto a livello regionale si nota che in tutte le regioni la Lega ha un significativo calo di consensi nelle città. In Lombardia questo calo si traduce in un vero e proprio crollo dal 40% del collegio di Sondrio al 15% dei collegi in centro a Milano, ma anche in Veneto, dove la Lega ha un consenso più uniforme e con la coalizione di centrodestra è riuscita a ottenere tutti i collegi uninominali, si nota un calo nei principali centri urbani. Viceversa il Partito Democratico, che negli ultimi anni ha conosciuto una diminuzione dei consensi nelle provincie, rimane molto forte nelle città arrivando a raggiungere quasi il 30% nei centri urbani. Il Movimento 5 Stelle invece riesce a intercettare i voti nelle periferie dove né la Lega né il Partito Democratico sono sufficientemente forti.
Risulta interessante che anche nel Lazio, regione in cui la Lega non ha una forte base elettorale, quest’ultima riesca a ottenere un discreto successo nelle provincie, mentre rimane un partito marginale in centro a Roma. Invece Fratelli d’Italia, partito molto vicino alla Lega per quanto riguarda le posizioni politiche, mostra un andamento diametralmente opposto riuscendo ad attecchire soprattutto a Roma, dove risulta molto più forte che nella provincia.
Nel Lazio il pattern del centrosinistra risulta ancora più evidente guardando la distribuzione dei voti di +Europa, partito appartenente alla coalizione di centrosinistra che non è riuscito a raggiungere la soglia di sbarramento del 3%, ma la cui leader Emma Bonino ha ottenuto il seggio al Senato tramite l’elezione in un collegio uninominale di Roma.
Guardando le regioni del Sud invece si osserva una diversa distribuzione dei voti del Partito Democratico, dovuta a un Movimento 5 Stelle molto forte tanto in periferia quanto in città, che raggiunge picchi sopra al 60% nei collegi di Napoli. Anche in Campania la Lega, per quanto risulti essere un partito secondario, mostra maggiori consensi in provincia rispetto che in città.
Dalla matrice di correlazione nei voti dei partiti emerge che la Lega e il Movimento 5 Stelle hanno una correlazione negativa fortissima, dovuta al fatto che la Lega ottiene voti prevalentemente al Nord, mentre il Movimento 5 Stelle al Sud. Come già osservato Forza Italia, vedendosi sottratta l’egemonia sull’elettorato di centrodestra al Nord, ha ottenuto voti prevalentemente al Sud, motivo per cui i voti di Forza Italia risultano correlati positivamente con i voti del Movimento 5 Stelle.
Gli aspetti emersi osservando le mappe risultano ancora più evidenti effettuando una cluster analysis.
Tutte le cluster analysis sono state effettuate utilizzando come spazio vettoriale i voti di tutti i partiti e calcolando la distanza tra i cluster con il metodo dell’average linkage. Da un’analisi delle componenti principali risulta che gran parte delle informazioni sono raccolte dalle prime 3 o 4 componenti, di conseguenza tutti i partiti minori assumono un ruolo quasi irrilevante per la costituzione dei cluster. Le variabili più informative per la costituzione dei cluster risultano essere i voti della Lega e i voti del Movimento 5 Stelle.
Per la scelta del numero di cluster si è considerato il rapporto tra la distanza tra gli ultimi due cluster accorpati e la distanza tra i due cluster accorpati al passo precedente. Più è alto questo rapporto e più è rilevante la divisione tra i cluster appena accorpati.
Da tutte le cluster analysis effettuate, si nota il non allineamento della provincia di Bolzano, dove la vittoria del SVP la identifica come un elemento anomalo non appartenente agli altri cluster.
Considerando i rapporti tra le distanze sui cluster accorpati, risulta che la miglior partizione delle circoscrizioni consiste nella separazione tra:
La seconda miglior partizione vede il cluster del Centro-Nord diviso tra le Circoscrizioni dove ha ampiamente vinto la Lega e le circoscrizioni del Centro assieme a Piemonte 1 e Liguria, dove vi è un’importante presenza del Partito Democratico e una discreta presenza del Movimento 5 Stelle.
Nel seguente diagramma a dispersione ogni bolla rappresenta una circoscrizione, la sua dimensione corrisponde alla popolosità e il colore corrisponde al cluster di appartenenza. Sugli assi sono rappresentati le percentuali ottenute dal Movimento 5 Stelle e dalla Lega, che risultano essere le variabili che meglio spiegano la partizione in cluster. Guardando la dimensione delle bolle risulta evidente che ci siano circoscrizioni poco popolose, come il Molise e circoscrizioni molto popolose come Lombardia 1, dove è situata Milano. Si noti che guardando le mappe delle circoscrizioni il Molise risulta essere più grande della circoscrizione di Lombardia 1 nonostante sia molto meno popoloso.
Effettuando una cluster analysis tra i collegi plurinominali si osserva sempre una netta distinzione tra collegi del Nord e collegi del Sud, ma aumentando il dettaglio emergono in un cluster a sé stante i collegi di Lombardia 1 - 03, dove è situato Milano, e di Toscana - 03, dove è situata Firenze, città natale di Matteo Renzi.
Aumentando ulteriormente il dettaglio si ottiene una partizione dei collegi uninominali in 7 cluster:
Dal diagramma a dispersione coi collegi uninominali si nota che, salvo casi particolari come i collegi del Trentino - Alto Adige, che essendo una regione a statuto speciale possiede diversi privilegi, la popolosità dei collegi è abbastanza uniforme. Con questa rappresentazione è facile individuare i collegi subcomunali in rosso scuro, che data la loro scarsa estensione si confondono nella mappa.
Sul sito dell’ISTAT, in occasione delle elezioni del 4 Marzo, è stata pubblicata una serie di indicatori di carattere socio-economico a livello di collegi. Si tratta di dati sulla popolazione raccolti durante il censimento del 2011. L’ISTAT monitora con cadenza mensile dati di tipo socio-economico a livello aggregato, ma è stato scelto di pubblicare i dati risalenti al 2011 perché sono gli unici con un dettaglio adeguato e sufficientemente precisi da permettere di effettuare analisi dei risultati elettorali. Per gli indicatori di tipo demografico questo non è un grosso problema, ma può esserlo per dati di tipo socio-economico come il tasso di disoccupazione, che nel 2011 su base nazionale si attestava tra l’8% e il 9%, mentre nel 2017 si attestava attorno all’11% dopo una lunga crescita avvenuta tra il 2008 e il 2014, quando si è toccata quota 13%, e una successiva decrescita.
I dati messi a disposizione dall’ISTAT sono i seguenti:
| Area | DENOMINAZIONE | Indicatore |
|---|---|---|
| Territorio | DAB | Densità abitativa |
| Demografica | IV | Indice di vecchiaia |
| Demografica | ST | Stranieri per 1.000 residenti |
| Sociale | TSO | Tasso specifico di occupazione |
| Sociale | TSOFM | Rapporto percentuale tra il tasso specifico di occupazione femminile e maschile |
| Sociale | ICMI | % di popolazione 18-24 anni che ha conseguito solo il titolo di studio di scuola media inferiore |
| Sociale | AAST | Tasso di analfabetismo |
| Sociale | PDU | Indice di possesso di titoli universitari e dei titoli terziari non universitari |
| Economica | ADD | Addetti totali per 1.000 abitanti |
| Economica | ADDSP | Addetti nei settori pubblici per 1.000 abitanti |
| Economica | OAI | % di occupati nel settore dell’industria in senso stretto |
| Economica | OSS | % di occupati nel settore dei servizi |
| Storico-culturale | INFR | % di popolazione nata al di fuori della regione di residenza |
| Storico-culturale | EDI | % Edifici ad uso residenziale costruiti prima del 1945 |
| Sociale | IVMS | Indice di vulnerabilità materiale e sociale |
Dai boxplot seguenti si può notare che tutti gli indicatori hanno una distribuzione abbastanza simmetrica, tranne la densità abitativa. Per questo prima di effettuare la regressione le è stata applicata una trasformazione logaritmica.
Dalla matrice di correlazione degli indicatori si nota che questi sono fortemente correlati tra di loro. Questo può essere un grosso problema per l’individuazione delle variabili esplicative che maggiormente spiegano i risultati elettorali perché ci potrebbero essere problemi di multicollinearità tra le variabili.
Siccome TSO e TSOFM hanno una correlazione molto forte ho deciso di rimuovere TSOFM.
Di seguito sono riportate le mappe con la distribuzione di alcuni degli indicatori che sono risultati particolarmente rilevanti nella regressione lineare.
Siccome i collegi di Bolzano, Merano e Bressanone sono punti influenti (hanno valori delle variabili esplicative particolarmente diversi rispetto a quelli degli altri collegi) e anomali (hanno dei risultati elettorali particolarmente diversi rispetto a quelli degli altri collegi), si è deciso di rimuoverli prima di effettuare la regressione.
Di seguito sono riportati i modelli che meglio spiegano i voti della Lega, del Movimento 5 Stelle e del Partito Democratico.
##
## Call:
## lm(formula = LEGA ~ ST + AAST + PDU + OSS + IVMS, data = df_lega)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12.8621 -2.6198 0.0989 2.3613 12.2099
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 89.713110 4.647857 19.302 < 2e-16 ***
## ST 0.068495 0.009583 7.147 1.26e-11 ***
## AAST -1.954181 0.167391 -11.674 < 2e-16 ***
## PDU -0.594294 0.074658 -7.960 8.79e-14 ***
## OSS -0.363361 0.074750 -4.861 2.21e-06 ***
## IVMS -0.512219 0.048533 -10.554 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.933 on 222 degrees of freedom
## Multiple R-squared: 0.8545, Adjusted R-squared: 0.8512
## F-statistic: 260.7 on 5 and 222 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = M5S ~ ST + TSO + AAST + EDI + IVMS, data = df_m5s)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.528 -2.546 -0.121 2.427 12.571
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 14.03898 13.51511 1.039 0.300046
## ST -0.08456 0.01474 -5.739 3.11e-08 ***
## TSO -0.35073 0.10000 -3.507 0.000548 ***
## AAST 0.62338 0.17191 3.626 0.000357 ***
## EDI -0.08767 0.02250 -3.896 0.000129 ***
## IVMS 0.44600 0.08735 5.106 7.07e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.327 on 222 degrees of freedom
## Multiple R-squared: 0.857, Adjusted R-squared: 0.8538
## F-statistic: 266.1 on 5 and 222 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = PD ~ TSO + AAST + PDU + EDI + IVMS, data = df_pd)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.5090 -1.9783 -0.2438 1.9837 12.0898
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -72.46606 8.68863 -8.340 7.83e-15 ***
## TSO 0.76151 0.05467 13.930 < 2e-16 ***
## AAST 0.62410 0.13387 4.662 5.40e-06 ***
## PDU 0.30423 0.04726 6.437 7.42e-10 ***
## EDI 0.04898 0.01758 2.786 0.0058 **
## IVMS 0.38712 0.05883 6.580 3.33e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.298 on 222 degrees of freedom
## Multiple R-squared: 0.6998, Adjusted R-squared: 0.693
## F-statistic: 103.5 on 5 and 222 DF, p-value: < 2.2e-16
Dai modelli di regressione lineare risulta che:
Per quanto riguarda gli stranieri, gli analfabeti, l’occupazione e la vulnerabilità, si tratta di aspetti che caratterizzano il divario che c’è tra le regioni del Nord e quelle del Sud. Altre variabili come la presenza di laureati, l’occupazione nei servizi e la presenza di residenze antiche caratterizzano le differenze che vi sono tra le aree urbane e le province.
Il problema delle variabili legate alle forti differenze geografiche tra Nord e Sud è che non permettono di capire se le differenze tra l’elettorato del Movimento 5 Stelle e quello della Lega siano veramente dovute a queste variabili di carattere socio-economico o se queste variabili siano solamente dei proxy che portano a correlazioni spurie.
Per neutralizzare l’effetto dell’appartenenza geografica e isolare le caratteristiche degli elettori, è stata condotta una seconda analisi di regressione lineare prendendo in considerazione solo le regioni del Nord, dove la Lega è particolarmente forte, ma vi è anche un’importante presenza del Movimento 5 Stelle e del Partito Democratico. Le regioni scelte sono state Piemonte, Lombardia, Veneto e Friuli - Venezia Giulia.
##
## Call:
## lm(formula = LEGA ~ IV + ADDSP + OSS + POP_NFR, data = df_nord_lega)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.8369 -1.2763 -0.0557 1.7452 8.7396
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 52.33445 2.00674 26.079 < 2e-16 ***
## IV -0.05086 0.01154 -4.408 3.52e-05 ***
## ADDSP -0.03055 0.01368 -2.233 0.0286 *
## OSS -0.31195 0.07518 -4.149 8.91e-05 ***
## POP_NFR -0.32621 0.05053 -6.456 1.04e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.927 on 73 degrees of freedom
## Multiple R-squared: 0.8197, Adjusted R-squared: 0.8098
## F-statistic: 82.96 on 4 and 73 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = M5S ~ ST + AAST + PDU + OSS, data = df_nord_m5s)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.3302 -1.5587 0.1737 1.7049 6.9819
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 18.72684 1.93445 9.681 9.97e-15 ***
## ST -0.03816 0.01183 -3.227 0.00187 **
## AAST 2.21860 0.42439 5.228 1.57e-06 ***
## PDU -0.37546 0.10508 -3.573 0.00063 ***
## OSS 0.27588 0.08442 3.268 0.00165 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.852 on 73 degrees of freedom
## Multiple R-squared: 0.5371, Adjusted R-squared: 0.5117
## F-statistic: 21.17 on 4 and 73 DF, p-value: 1.273e-11
##
## Call:
## lm(formula = PD ~ LDAB + IV + ICMI + PDU, data = df_nord_pd)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4.076 -1.226 -0.269 1.357 4.758
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.452382 2.445177 -1.412 0.16222
## LDAB 0.952049 0.219874 4.330 4.67e-05 ***
## IV 0.019349 0.006819 2.838 0.00588 **
## ICMI 0.346933 0.082357 4.213 7.12e-05 ***
## PDU 0.395457 0.072668 5.442 6.72e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.862 on 73 degrees of freedom
## Multiple R-squared: 0.7624, Adjusted R-squared: 0.7493
## F-statistic: 58.55 on 4 and 73 DF, p-value: < 2.2e-16
Dai modelli di regressione lineare sulle sole regioni del Nord risulta che:
Per quanto riguarda la densità abitativa, la presenza di anziani, la presenza di laureati e l’occupazione nei servizi, si tratta di aspetti che caratterizzano le differenze che vi sono tra le aree urbane e le province.
La presenza di italiani nati fuori regione invece caratterizza il Piemonte che ha conosciuto una forte immigrazione interna dal dopoguerra in poi. La presenza di tanti meridionali potrebbe essere uno dei motivi per cui la Lega Nord di Umberto Bossi non sia riuscita a costruirsi una forte base elettorale come in Lombardia e Veneto, fatto che si riversa sugli attuali risultati elettorali della Lega di Matteo Salvini.
Il risultato del Movimento 5 Stelle è più difficilmente interpretabile perché essendo un partito più giovane e senza una forte identità caratteristica tende a raccogliere trasversalmente i voti degli elettori insoddisfatti dei partiti tradizionali. Di conseguenza potrebbe essere semplicemente che il motivo dei suoi successi alle elezioni politiche sia da spiegare come un insuccesso degli altri partiti. Cioè nelle zone in cui la Lega non ha una forte presenza e negli ultimi anni si è diffuso un generale malcontento nei confronti del Partito Democratico, il Movimento 5 Stelle riesce a emergere ottenendo i voti degli insoddisfatti che cercano un cambiamento.
L’analisi dei risultati elettorali su base geografica non permette di capire con certezza quali siano le caratteristiche socio-economiche dell’elettorato dei diversi partiti, perché, come già osservato, si basa sull’analisi di dati aggregati. Può però fornire interessanti punti di partenza per ulteriori indagini politiche.
Inoltre la statistica da sola fornisce solo correlazioni, non nessi di causa-effetto. Di conseguenza può essere utilizzata come analisi esplorativa o come verifica di ipotesi fatte a monte, ma senza una spiegazione di tipo sociologico non ha molto peso dal punto di vista scientifico.
Questo problema si riscontra soprattutto nel tentativo di rispondere al quesito 5 (Le zone geografiche sono solo un proxy per le caratteristiche socio-economiche degli elettori o da sole spiegano il voto degli elettori?). Va però notato che dalla regressione lineare alcuni degli indicatori che distinguono le regioni del Nord dalle regioni del Sud risultati significativi nell’analisi su base nazionale, risultano non significativi limitando l’analisi alle regioni del Nord. Si potrebbe quindi pensare che non è la collocazione geografica un proxy per quelle caratteristiche della popolazione, ma sono quelle caratteristiche della popolazione a fare da proxy per la collocazione geografica.